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摘要 : 【 目的 ] 在 食品 安全 领域 中 ,建立 相关 数据 库 对 食品 安全 的 监管 和 控制 都 会 有 很 大 的 帮助 ， 自 动 分 词 在 构 


建 索 引 、 使 用 索引 以 及 构建 语料库 中 都 起 到 至 关 重 要 的 作用 。 将 基于 条 件 随机 场 的 字 标 注 统计 学 习 方法 , 应 用 


在 食品 安全 突 发 事件 语 料 的 自动 分 词 中 。[ 方法 ] 分 析 语 料 的 词 长 分 布 等 特点 , 对 该 方法 自动 分 词 过 程 中 所 涉及 
的 特征 选择 和 特征 模板 进行 不 同 实 验 , 得 出 不 同 特征 选择 和 应 用 不 同 特征 模板 对 分 词 结果 的 影响 。[ 结果 】 从 实 
验 结果 可 以 看 出 , 特征 选择 时 并 不 是 特征 越 多 分 词 效果 越 好 , 会 出 现 特征 干扰 的 情况 , 在 二 三 字 词 占 46.62% 的 


食品 安全 突 发 事件 语 料 中 , 特征 模板 中 的 当前 字 和 前 后 驱 第 
通过 对 不 同 特征 选择 和 特征 模板 及 其 相互 组 合 的 实验 , 选择 出 在 本 文 研究 的 语料库 自动 分 词 中 最 优 的 特征 和 特 


个 字 所 代表 的 特征 模板 对 分 词 效 果 影响 明显 。[ 结论 】 


征 模板 , 在 5Tag 特征 标记 下 配合 对 应 特征 模板 对 目标 语 料 分 词 的 F 值 达到 92.88%。 
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近年 来 , 食品 安全 事故 不 断 涌现 。 越 来 越 多 的 食 
品 安全 亚 性 事件 ,对 社会 生产 和 人 民 和 群众 的 生活 造成 
严重 影响 。 关 于 食品 安全 突 发 事件 的 各 种 信息 也 迅速 
增多 , 并 引起 人 们 的 广泛 关注 ， 由 于 食品 安全 关系 到 
民众 的 生命 安全 和 公共 健康 ， 因 此 , 食品 安全 问题 的 
解决 不 仪 需要 “ 自 上 而 下 ”政府 部 门 的 行政 监管 和 企业 
的 自律 中 , 更 需要 “ 自 下 而 上 ”社会 监督 力量 的 积极 参 
与 中 ,在 信息 传播 速度 如 此 之 快 的 今天 , 作为 一 直 以 来 
的 社会 热点 话题 网络、 纸 质 报 纸 、 书 籍 成 为 “食品 安 
全 突 发 事件 ”快速 扩散 的 主要 载体 , 同时 也 成 为 群众 
获取 食品 安全 事件 信息 的 一 个 主要 途径 。 随 着 自然 语 


Ti AED SUA HE, 针对 中 文 文本 的 自动 分 词 技术 的 
研究 已 取得 一 定 的 成 效 , 在 精准 度 和 分 词 速度 上 都 有 
了 大 幅 提升 ， 这 项 技术 在 许多 方面 也 已 经 得 到 应 用 ， 
在 文本 分 类 、 信 息 检索 、 信 息 过 滤 、 文 献 自动 标 引 、 摘 
要 自动 生成 等 中 文 信息 处 理 中 都 起 到 关键 性 的 作用 中 
但 是 在 食品 安全 信息 处 理 中 自动 分 词 的 应 用 和 研究 较 
D, 有 待 探索 。 

在 食品 领域 中 ,建立 相关 数据 库 对 食品 安全 的 监 
管 和 控制 会 有 很 大 的 帮助 ， 张 星 联 等 外 指出 建立 食品 
安全 预警 数据 库 系 统 的 重要 性 。 食 品 信息 的 不 对 称 不 
真实 是 食品 领域 中 的 不 正当 行为 的 根本 原因 之 一 , 要 
避免 这 样 的 现象 ,就 要 创立 有 效 可 行 的 食品 电子 监管 
系统 ， 也 就 是 创建 动态 数据 库 , 数据 库 更 新 及 时 和 准 
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以 只 能 找到 局 部 的 最 优 值 , 但 是 也 带 来 了 标记 偏见 的 


加 稳定 中 ,食品 工业 发 展 迅 速 , 食品 加 工 的 范围 和 深度 
不 断 扩展 , 余 清 等 四 分 析 了 建立 加 工 食品 风险 数据 库 
的 必要 性 , 该 数据 库 可 以 提供 食品 的 检验 和 检测 信息 ， 
还 提供 如 食品 的 危害 物 风 险 系数 等 信息 ,为 加 工 食 品 
风险 数据 的 研究 提供 了 很 大 的 帮助 。 在 具体 实施 上 ， 
贾 凯 等 中 建立 了 彭州 市 三 界 镇 生 鲜 农产品 溯源 数据 库 ， 
在 对 国内 和 国外 的 渊源 系统 进行 整理 和 研究 的 基础 
E, 再 对 彭州 市 三 界 镇 的 具体 食品 情况 进行 整理 ,并 
提供 生 鲜 食品 信息 的 管理 和 应 用 功能 。 

目前 中 文 自动 分 词 方法 主要 有 4 种 : 机 械 分 词法 、 
基于 统计 的 分 词法 、 字 标注 统计 学 习 法 以 及 基于 深度 
神经 网 络 模 型 的 方法 。 在 2002 年 之 前 ， 自 动 分 词 方法 
基本 上 是 基于 词典 的 后， 在 此 基础 上 可 进一步 分 为 基 
于 规则 的 机 械 分 词法 和 基于 统计 的 分 词法 。 这 两 类 方 
法 完全 依赖 于 词典 , 词典 内 容 则 是 全 部 领域 信息 的 来 
源 外 ,虽然 该 方法 配合 词典 以 及 通过 补充 大 量 消除 歧 
义 的 信息 , 能够 有 较 好 的 领域 针对 性 和 准确 率 , 但 是 
其 受 限 于 对 词典 的 完全 依赖 ， 导 致 这 两 类 方法 不 能 够 
有 很 好 的 适应 性 ， 另 外 构建 领域 词典 工程 量 大 , 大量 
的 时 间 和 人 力 花 在 词典 构建 上 , 同时 随 着 更 多 未 登录 
词 的 出 现 , 词典 难以 维护 。 

随 着 SIGHAN 国际 中 文 分 词 评测 Bakeoff 的 展开 ， 
将 中 文 分 词 任务 视 为 序列 标注 问题 逐渐 成 为 主流 。 字 
标注 统计 学 习 方法 在 解决 未 登录 词 和 消除 歧义 上 有 较 
好 的 效果 , 在 不 利用 词典 的 情况 下 , 字 标 注 统计 学 习 
方法 的 分 词 效果 完全 超过 基于 词典 的 方法 ， 显 然 是 更 
好 的 选择 。 而 基于 深度 神经 网 络 模型 的 方法 ， 目 前 尚 
RREA, 深度 学 习 在 自然 语言 处 理 方面 的 应 用 较 少 ， 
本 文 不 做 探讨 。 

基于 字 标 注 统计 学 习 方 法 的 中 文 分 词 任务 本 质 上 
是 一 个 序列 标记 的 过 程 , 将 文本 信息 抽象 为 一 个 观察 
序列 , 然后 对 序列 中 的 每 个 字 进 行 标记 M'"。 字 标注 统 
计 学 习 方 法 的 关键 在 于 选择 一 个 对 处 理 目标 合适 的 机 
器 学 习 模 型 ， 而 目前 用 的 比较 多 的 是 隐 马 尔 可 夫 模 型 
(HMM), 、 最 大 焙 模 型 (ME) 和 条 件 随 机 场 模型 (CRF)。 
隐 马 尔 可 夫 模 型 主要 缺点 是 由 于 其 输出 独立 性 假设 ， 
导致 不 能 考虑 上 下 文 的 特征 , 限制 了 特征 的 选择 。 最 
大 炉 模 型 则 解决 了 隐 马 尔 可 夫 模 型 的 问题 , 可 以 任意 
选择 特征 , 但 由 于 其 在 每 一 节点 都 要 进行 归 一 化 ， 所 


问题 ， 即 几 是 训练 语 料 中 未 出 现 的 情况 全 都 忽略 掉 。 
条 件 随机 场 模型 则 很 好 地 解决 了 这 一 问题 , 该 模型 并 
不 在 每 一 个 节点 进行 归 一 化 , 而 是 所 有 特征 进行 全 局 
归 一 化 , 因此 求解 的 是 全 局 最 优 值 。 在 之 前 的 研究 已 
经 证 明 采 用 链 式 的 CRF 模型 实现 的 分 词 系统 ， 较 之 于 
ME 与 HMM 能 得 到 更 好 的 效果 。 

本 文 根 据 食品 安全 突 发 事件 语 料 特 点 ， 提 出 一 种 
面向 食品 安全 突 发 事件 汉语 分 词 的 特征 选择 及 模型 优 
化 的 研究 方法 。 研 究 内 容 侧重 于 以 下 两 个 方面 : 将 基 
于 链 式 的 条 件 随 机 场 模 型 的 中 文 自动 分 词 方 法 应 用 于 
食品 安全 语 料 自动 分 词 当中 ; 分 析 语 料 , 提出 符合 语 
料 特点 的 特征 模板 、 特 征 选 择 以 及 特征 标记 选择 。 该 
方法 与 其 他 分 词 系 统 相 比 能 够 较 好 地 解决 食品 安全 案 
例 库 这 种 密集 型 文本 所 有 具有 的 交 革 上 收 义 和 未 登录 词 的 
问题 有 效 提 高 了 分 词 的 准确 率 和 召回 率 。 


2 条 件 随 机 场 模型 介绍 


条 件 随 机 场 模 型 (Conditional Random Fields, 
CRFs) 是 Lafferty 等 于 2001 年 在 最 大 粹 模型 和 隐 马 尔 
可 夫 模 型 的 基础 上 提出 的 一 种 无 向 图 学 习 模型 ， 是 一 
种 用 于 标注 和 切 分 有 序数 据 的 条 件 概率 模型 六 。 

无 向 图 模型 亦 称 为 马尔 可 夫 随 机 场 或 马尔 可 夫 网 
?k, 是 由 Pearl 提出 0。 无 向 图 G(V,E), Hip v 
点 /节点 ， 表示 随 机 变量 ; E 是 边 / 弧 ， 表示 随机 变量 间 
的 条 件 依赖 关系 。 

尽管 在 给 定 每 个 节点 的 条 件 下 , 分 配给 该 节点 一 
个 条 件 概率 是 可 能 的 , 无 向 图 的 无 向 性 导致 不 能 用 条 
件 概 率 参数 化 表示 联合 概率 , 而 要 从 一 组 条 件 独立 的 
原则 中 找 出 一 系列 局 部 函数 的 乘积 来 表示 联合 概率 。 


图 1 无 向 图 最 大 全 联通 子 图 示例 


图 1 是 一 个 简单 的 例子 , 无 向 图 中 的 最 大 全 联通 
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TE 6, X}, { X3}, UG, X4), Uo. Xa, Xs), 那么 很 
容易 得 到 图 中 无 向 图 模型 的 联合 概率 分 布 为 : 
P(X,X,,X,, X4, X;)= 

VG, X. GG, X KX, X DAX, X4, Xs) 
UGG, XP, GC, X4) (X, X Y CX, X4, X5)] 


(1) 

如 果 给 定 的 马尔 可 夫 随 机 场 中 每 个 随机 变量 还 有 
观察 值 , 则 要 确定 的 是 给 定 观 察 集合 下 ， 这 个 马尔 可 夫 
随机 场 的 分 布 , 也 就 是 条 件 分 布 , 这 个 马尔 可 夫 随 机 场 
就 称 为 条 件 随 机 场 。 它 的 条 件 分 布 形式 完全 类 似 于 马尔 
可 夫 随 机 场 的 分 布 形式 ， 只 不 过 多 了 一 个 观察 集合 元 

条 件 随机 场 提 出 目的 在 于 解决 离散 数据 的 序列 标 
注 问题 ， 在 给 定 的 序列 X-íx, X2, X377, Xn-1, x, UFUG Fi 
状态 集合 天 Do yo Ys Yrd 十 的 情况 下 , Ut G-(V, E) 
是 一 个 无 向 图 了 = (Y,|veV 是 以 G 中 节点 为 索引 的 
随机 变量 构成 的 集合 。 在 给 定 X 的 条 件 下 ， 如 果 每 个 
随机 变量 服从 马尔 可 夫 属 性 即 : 


Js 站 天 


fjs 


PY, X,Y, „u zv) - PY, X,Y, uov) (2) 
其 中 ，xcy 表示 wu 和 vw 是 相 邻 的 边 ， 则 构成 一 个 
条 件 随机 场 。 


如 图 2 Brzs, CRF 采用 无 向 图 模型 来 描述 给 定 序 
列 的 状态 , 在 条 件 随 机 场 X 中 , 每 一 个 元 素 对 应 图 中 


CRF 就 是 给 定 观察 集合 情况 下 的 无 向 图 模型 1。 


图 2 His CRF 图 形 结 构 

根据 条 件 随机 场 基 本 理论 : 

P(ylx, A) pe exp(? Nt Cy, -Lly;.x.i) +) uus (xi) 
j k 
(3) 

3 ET CRF 模型 的 食品 安全 突 发 事件 自动 

ig 
31 食品 安全 语料库 说 明 

在 对 食品 安全 突 发 事件 进行 采集 、 标 注 和 组 织 的 
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基础 上 , 本 文 构建 2005 年 -2015 年 的 食品 安全 突 发 事 
件 语料库 , 并 由 此 语料库 经 过 粗 切 分 、 人 工 校 对 等 步 
又 形成 最 后 实验 数据 ,具体 过 程 如 图 3 所 示 。 


数据 采集 语 料 粗 切 分 人 工 校对 


5000 条 突 发 


语 料 粗 
事件 语料库 切 分 


图 3 实验 所 用 语料库 构建 过 程 


(1) 食品 安全 突 发 事件 的 采集 过 程 如 下 : 采集 目 
标 主 要 包括 网 络 上 的 食品 安全 突 发 事件 和 纸 质 报纸 、 
书籍 上 的 食品 安全 突 发 事件 。 网 络 上 食品 安全 突 发 事 
件 的 采集 通过 自己 编写 的 程序 , 利用 面向 突 发 事件 主 
题 垂 直 搜索 引擎 技术 自动 采集 , 采集 范围 包括 新 闻 门 
户 、 论 坛 和 博客 ,对 于 采集 的 异 构 数据 通过 相应 的 数 
据 清 洗 、 转 换 保 存 到 数据 库 中 ; 而 纸 质 的 突 发 事件 案 
例 则 通过 人 工 录入 、 校 对 的 方式 完成 对 近 5 000 条 突 
发 事件 的 采集 , 经 清洗 和 转换 后 约 4500 条 人 库 数 据 ， 
累计 存储 大 小 约 20MB。 

Q) 采集 完成 之 后 , 用 中 国 科 学 院 计算 技术 研究 
所 的 分 词 软件 NLPIR 对 语 料 进 行 标注 ,标注 结果 显 
示 ， 其 结果 中 出 现 了 很 多 未 登录 词 识 别 不 准确 的 情 
况 。 食 品 安 全 案例 库 属于 密集 型 文本 ,其 中 中 文 未 登 
录 词 和 歧义 词 大 量 出 现 。 在 为 数 众 多 的 食品 描述 、 地 
理 描述 、 化 合 物 描述 等 类 型 文本 中 , 食品 安全 描述 文 
本 具有 很 好 的 代表 性 , 涉及 众多 的 食品 名 称 和 化 学 品 
名 称 ,， 所 以 机 器 会 标注 错误 , 在 食品 安全 领域 适用 性 
不 太 好 , 所 以 只 是 用 它 来 进行 粗 切 分 , 减少 人 工 标注 
的 工作 量 。 

(3) 对 经 过 粗 切 分 之 后 的 语 料 进 行人 工 标注 , 由 
于 出 现 了 较 多 的 未 登录 词 未 识别 和 歧义 词 识别 错误 的 
情况 ,因此 对 全 部 粗 切 分 后 的 语 料 逐 个 词 进行 校对 ， 
找 出 粗 切 分 过 程 中 出 现 的 分 词 错误 ,并 校正 为 正确 的 
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分 词 结果 , 最 大 程度 上 保证 训练 语 料 分 词 的 正确 。 
3.02 ”实现 方法 
CRF++t 是 一 个 可 用 于 连续 序列 的 标注 的 可 定 
制 并 且 开源 的 条 件 随 机 场 工具 ,而 且 也 是 目前 所 有 条 
件 随机 场 工具 中 使 用 率 最 高 , 被 普遍 认为 易 用 性 VE 
确 性 和 稳定 性 等 综合 方面 表现 最 好 的 一 个 。CRF++ 是 
为 了 通用 目的 设计 定制 , 并 被 用 于 自然 语言 信息 处 理 
的 各 个 方面 ， 如 命名 实体 识别 、 信 息 提 取 、 语 义 分 析 
等 。 本 文 利用 CRF++ 进 行 中 文 文本 分 词 处 理 , 使 用 的 
版 本 是 CRF++ 在 Linux 环境 下 较 新 的 0.58 版 本 。 
实验 过 程 如 图 4 rz, 主要 分 为 训练 学 习 、 测 试 
输出 、 模 型 测评 和 模型 优化 4 个 阶段 。 训练 学 习 部 分 


训练 学 习 阶 段 


测试 输出 阶段 
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主要 是 语 料 的 特征 提取 ， 选 出 适合 食品 安全 语 料 的 
部 分 特征 , 将 不 同 特征 赋予 不 同 特征 标记 之 后 加 入 
文本 中 并 处 理 成 CRF++ 能 识别 的 格式 。 然 后 选取 不 
同 特征 及 不 同 特征 组 合 ,根据 选取 的 特征 构造 特征 
模板 。 最 后 在 CRF++ 中 由 训练 数据 和 特征 模板 
(template 文件 ) 一 起 训练 出 分 词 模型 (model 文件 )。 测 
试 输出 部 分 是 用 同样 是 处 理 为 CRF++ 格 式 的 测试 数 
据 和 已 经 训练 出 的 分 词 模 型 共同 得 到 最 后 的 分 词 结 
AR, 如 表 1 所 示 。 模型 测评 部 分 对 得 到 的 输出 结果 进 
行 测 评 , 并 将 测评 结果 与 其 他 实验 结果 进行 对 比 , 观 
察 其 中 差别 , 不 断 改变 特征 选择 、 特 征 标 记 的 选择 以 
及 优化 特征 模板 ,直到 得 到 相对 最 优 的 分 词 结果 。 


模型 测评 阶段 模型 优化 阶段 


食品 安全 突 发 事 


数据 ) 


特征 模板 训练 出 分 闻 模 型 


特征 模板 的 
构建 


分 词 结果 


异型 测评 
P、R、F 值 
计算 


CRF 模 型 


优化 之 后 得 到 
的 最 佳 测评 值 


图 4 实验 流程 


表 1 CRF 分 词 后 输出 结果 示例 


文本 语 料 正确 标记 CRF 输出 标记 文本 语 料 正确 标记 CRF 输出 标记 
5 S S 中 S S 
一 B S JR B B 
种 E S JO I E 
是 S S 大 M B 
生 B B 意 E E 
产 E E S S 
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由 于 本 文 的 语料库 较为 庞大 而 且 原 始 语 料 无 任 


本 文 使 用 现代 汉语 中 字 在 词 中 的 位 置 特征 , 测试 


ERE, 因此 需要 对 所 有 参与 训练 和 测试 的 语 料 进行 
分 词 。 采 用 的 方法 是 机 器 自动 分 词 与 人 工 校 正 相 结 合 的 
方法 , 首先 用 汉语 分 词 系 统 NLPIR 进行 自动 分 词 [ 
由 于 食品 安全 事件 语 料 的 领域 性 较 强 , 对 于 NLPIR fi 
误 的 分 词 结果 , 在 相应 食品 科学 领域 研究 人 员 的 指导 
F, 组 织 人 力 系统 全 面 地 对 食品 安全 事件 的 语 料 进行 
分 词 校对 , 形成 高 质量 的 食品 安全 事件 分 词语 料 5”。 


了 三 种 不 同 的 位 置 特征 标记 ,如 表 2 所 示 ， 同 时 将 位 
置 特 征 放 在 训练 语 料 的 最 后 一 列 ， 作 为 CRF++ 的 输 
出 ,用 测试 语 料 配合 经 过 训练 的 模型 分 词 之 后 输出 位 
置 特征 ， 最 后 根据 位 置 特征 标记 将 字 组 成 词 ， 完 成 分 
词 任务 。 


表 2 位 置 特征 标记 


本 文 所 有 的 实验 均 基 于 人 工 校对 后 的 分 词语 料 进行 。 

食品 安全 突 发 事件 语 料 的 中 文 自动 分 词 可 以 抽象 
为 序列 标记 任务 , 输入 的 待 分 词 文本 就 是 模型 中 给 定 
的 观测 序列 , 在 给 定 观 测序 列 的 条 件 下 , 利用 CRF Bi 
型 得 到 一 个 整个 序列 的 最 大 的 联合 概率 分 布 。 能 否 选 
出 一 组 有 效 的 特征 标记 对 最 后 的 分 词 效果 有 很 大 影 
响 ， 所 以 首先 要 筛选 和 确定 竺 分 词语 料 的 特征 选择 和 
相对 应 的 特征 标记 ,然后 根据 筛选 的 特征 确定 训练 模 
型 时 所 用 到 的 特征 模板 ,训练 数据 和 特征 模板 确定 之 
后 ， 就 可 以 训练 出 所 需要 的 CRF 模型 ， 最 终 的 分 词 结 
果 即 是 根据 该 模型 计算 得 到 的 。 

模型 优化 阶段 是 本 文 的 重要 研究 部 分 ,通过 不 断 
尝试 新 的 特征 标记 以 及 不 同 的 特征 选择 组 合 ， 配 合 以 
与 文本 特点 和 特征 选择 更 加 适合 的 特征 模板 以 达到 更 
好 的 模型 测评 结果 ,具体 表现 在 PERR), RCA E 
率 )、F 值 更 高 。 具 体 计算 公式 如 下 : 


准确 率 (P) = 


全 _x100% (4) 


A+B 


召回 率 (R)= x100% (5) 


A+C 


调和 平均 值 (F) = TR 


x100% (6) 


实际 计算 的 时 候 也 是 如 此 ,对 位 置 特征 的 标记 计 
算 P、R、F 的 值 , 然后 , 根据 每 个 标记 数量 所 占 比例 
计算 出 权 值 , 加 权 平 均 得 到 最 后 的 值 。 

(1) 特征 和 特征 标记 的 选择 

在 基于 条 件 随 机 场 的 中 文 自动 分 词 中 , 在 训练 学 
习 阶 段 ， 需 要 给 定 一 部 分 正确 的 经 过 机 需 分 词 和 人 工 
校正 的 语 料 来 训练 学 习 出 用 于 分 词 的 CRF 模型 , 在 训 
练 语 料 中 使 用 不 同 的 特征 选择 和 不 同 的 特征 标记 会 导 
致 分 词 效果 的 不 同 。 
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标记 类 型 标记 描述 
4Tag B 表示 词 首 字 , M 表示 词 中 字 , E 表示 词尾 字 ， 
(B, M, E, S} S 表示 单字 词 字 。 
5Tag B 表示 词 首 字 , I 表示 四 字 以 上 词 首 后 第 一 个 字 ， 
{B, I, M, E, S} ”M 表示 词 中 , E 表示 词尾 字 , S 表示 单字 词 字 。 


B 表示 词 首 字 , I 表示 四 字 以 上 词 首 后 第 一 个 
ii 字 , J 表示 五 字 以 上 词 首 后 第 二 个 字 , M 表示 词 
{B, I, J, M, E, S} 二 Mo - 
PF, E 表示 词尾 字 , S 表示 单字 词 字 。 


在 计算 P、R、F 值 的 时 候 需要 给 每 个 标记 的 一 个 
权 值 , 本 文 对 其 权 值 的 计算 ， 如 表 3— 5 所 示 , 统计 
出 每 个 特征 标记 在 测试 语 料 中 的 数量 , 计算 其 所 占 比 
例 , 用 该 标记 数量 在 总 标记 中 的 百分比 作为 其 权 值 。 

表 3 4Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
M 158 744.3 8.03% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


表 4 5Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
I 28 529 1.44% 
M 130 215.3 6.59% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


表 5 6Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
I 28 529 1.44% 
J 11 595.4 0.59% 
M 118 619.9 6.00% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


在 目前 利用 条 件 随机 场 进 行 中 文 分 词 的 研究 中 ， 
大 多 数 还 是 处 于 单一 特征 标记 阶段 。 对 于 组 合 特征 也 


多 是 简单 特征 增加 , 在 实验 中 发 现 , 不 同 的 特征 组 合 
带 来 的 效果 是 不 一 样 的 ， 并 不 是 特征 越 多 训练 出 来 的 
模型 分 词 效果 就 越 好 , 可 能 出 现 特征 干扰 和 由 于 特征 过 
多 而 带 来 的 元 余 信息 ,， 导致 分 词 效果 下 降 的 现象 "1。 

除 字 位 特征 以 外 , 针对 现代 汉语 文本 常用 的 其 他 
等 征 如 "字音 特征 "“ 词 长 特征 ” 笔者 进行 了 单独 实验 
和 组 合 实验 。 首 先 将 训练 语 料 选 择 其 中 一 些 特征 组 合 
配 上 合适 的 特征 标记 处 理 为 CRF++ 能 识别 的 训练 语 
料 格 式 , 如 表 6 所 示 。 男 外 ,在 处 理 训练 语 料 时候 , 将 
要 输出 的 特征 放 在 最 后 一 列 ,由 于 本 文 研 究 的 是 分 词 
任务 , 所 以 将 位 置 特征 放 在 最 后 一 列 。 
RO 添加 多 个 特征 之 后 的 训练 语 料 


食品 安全 语 料 字音 特征 词 长 特征 位 置 特征 
媒 mei 2 B 
体 ti 2 E 
调 diao 2 B 
查 cha 2 E 
街 jie 2 B 
头 tou 2 E 
凉 liang 3 B 
拌 ban 3 M 
菜 cai 3 E 
原 yuan 2 B 
料 liao 2 E 
部 bu 2 B 
分 fen 2 E 
为 wei 1 S 
人 ren 2 B 
造 zao 2 E 
或 huo 1 S 
Ei han 1 S 
添 tian 3 B 
加 jia 3 M 
剂 ji 3 E 


在 训练 学 习 和 测试 输出 阶段 , 将 语 料 均 分 为 10 
份 , 然后 按 7:3 的 比例 进行 训练 和 测试 , 并 使 用 10 折 
交叉 验证 对 模型 的 稳定 性 进行 评估 。 

对 不 同 特征 和 特征 组 合 进行 训练 和 测试 输出 ， 并 
对 结果 进行 测评 ， 结 果 如 表 7 所 示 。 从 实验 结果 可 以 
看 出 , 在 4Tag、5Tag 和 6Tag 类 型 的 特征 中 , 4Tag 和 
5Tag 的 类 型 的 特征 分 词 之 后 ,P、R\F 值 普遍 高 于 6Tag 
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类 型 的 特征 。 在 对 不 同 特征 选择 进行 训练 时 ， 为 了 确 
保 区 分 度 , 均 使 用 如 表 8 所 示 特 征 模板 进行 训练 ， 多 
特征 则 在 特征 模板 中 另 起 一 行 同样 使 用 表 8 中 的 特 
征 模板 。 


表 7 不 同 特征 组 合 的 分 词 测评 结果 


特征 选择 P 值 R 值 F 值 
4Tag 92.85% 92.89% 92.87% 
4Tag+ 词 长 92.74% 92.78% 92.76% 
4Tag+ 字 音 92.53% 92.57% 92.55% 
4Tag+ 词 长 + 字音 92.6796 92.69% 92.68% 
5Tag 92.85% 92.90% 92.88% 
5Tag+ 词 长 92.64% 92.69% 92.67% 
5Tag+ 字 音 92.32% 92.38 92.35% 
5Tag+ 词 长 + 字音 92.02% 92.08% 92.05% 
6Tag 92.20% 92.11% 92.16% 
6Tag+ 词 长 92.09% 92.00% 92.04% 
6Tag+ 字 音 92.00% 91.90% 91.95% 
6Tag+ 词 长 + 字音 91.7196 91.60% 91.65% 


表 8 基本 的 特征 模板 

特征 特征 模板 特征 描述 

C, U01:%x[-2, 0] 当前 字 的 前 驱 第 二 个 字 

C,  U02:vex[-1, 0] 当前 字 的 前 驱 第 一 个 字 

Co U03:%x[0, 0] 当前 字 

C,  U04:%x[1, 0] 当前 字 的 后 驱 第 一 个 字 

C;  UO05:x[2, 0] 当前 字 的 后 驱 第 二 个 字 
C_Co U06:%x[-1, 0]/%x[0, 0] 前 一 个 字 到 当前 字 的 转移 概率 
CQC, U07:%x[0, 0]/%x[1, 0] ”当前 字 到 后 一 个 字 的 转移 概率 
C4C, U08:%x[-1, O]/Vox[1, 0] 前 一 个 字 到 后 一 个 字 的 转移 概率 


(2) 特征 模板 的 构建 和 优化 

CRF++ 中 的 特征 模板 主要 用 来 定义 从 训练 集中 提 
取 特 征 的 方法 , 使 用 特征 模板 从 训练 集中 提取 到 的 特 
征 字符 串 , 在 CRF++ 中 , 这些 特 征 都 是 二 值 函 数 ， 本 
数 的 输出 用 来 判断 这 个 标签 是 否 要 输出 “output" 中 的 
特征 标签 。 

在 特征 模板 文件 中 ,主要 使 用 的 是 Unigram 
Template， 此 特征 模板 第 一 个 字符 是 U， 每 一 行 (如 
U01:%x[-2, 0]) 代 表 一 个 特征 ， 而 宏 “%x[ 行 位 置 ， 列 位 
置 ] 则 代表 相对 于 当前 指向 的 token 的 行 偏 移 和 列 的 
绝对 位 置 , 如 表 8 所 示 。 每 一 行 "%x[ 行 位 置 ， 列 位 置 ] 
生成 一 个 CRFs 中 的 点 (state) 函 数 : fs, o), 其 中 s 为 1 
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时 刻 的 标签 (outpub, o 为 1 时 刻 的 上 下 文 。 使 用 表 2 所 
示 的 特征 模板 , 以 表 6 中 的 语 料 来 说 明 : 

funcl = if (output = B and feature="U040: 媒 return 1 else return 0 

它 是 由 U03:%x[0, 0] 在 输入 文件 的 第 一 行 生成 的 
点 函数 。 将 输入 文件 的 第 一 行 “ 代 入 ”到 函数 中 ,函数 
返回 1， 同 时 ,如 果 输 入 文件 的 某 一 行 在 第 1 列 也 是 
"lit" 并 且 它 的 output( 最 后 一 列 ) 同 样 也 为 B, 那么 这 
个 函数 在 这 一 行 也 返回 1。 

在 template 文件 中 , 每 一 种 特征 对 应 一 个 特征 模 
板 (template 中 用 换行 来 区 分 不 同 的 特征 模板 ), 不 同 的 
特征 模板 和 不 同 特征 之 间 的 配合 使 用 同样 也 会 影响 到 
分 词 的 效果 站。 本 文 利用 特征 选择 中 效果 比较 好 的 
5Tag 特征 标记 对 不 同 的 特征 模板 进行 实验 , 结果 如 表 
9 所 示 , 可 以 看 出 不 同 的 特征 模板 构建 方式 对 分 词 效 果 
的 影响 较 大 ， 其 中 移 除 二 元 特征 (C_1Co, CoC, CC ), 
F 值 有 明显 下 降 ， 而 一 元 特征 的 增加 和 移 除 对 分 词 效 

影响 不 明显 ， 当 增加 的 二 元 特征 不 包含 Co (%x[0， 
0]) 时 ， 对 分 词 结果 影响 不 大 。 


表 9 应 用 不 同 特征 模板 的 分 词 结 
特征 模板 (对 比 表 8) F 值 

原始 特征 模板 92.88% 

移 除 一 元 特征 C_,、C,、 C 4. Ci 92.72% 

移 除 二 元 特征 C_iCo、CoCi、C_ICI 86.33% 

增加 一 元 特征 C_3、C3 92.73% 

增加 二 元 特征 CCa, C 4C 5 92.56% 

GE: 增加 的 一 元 特征 : U09:%x[-3, 0] 和 U010:%x[3, 0]; 增加 的 
二 元 特征 : U09:%x[1, 0]/%x[2, 0] 和 U10:%x[-1, 0]/%x[-2, 0]。) 


4 实验 结果 分 析 


对 不 同 特征 选择 实验 结果 进行 对 比分 析 , 由 表 7 
数据 生成 图 5, 将 数据 分 为 三 组 (4Tag 组 .5Tag 组 .6Tag 
组 ) 进 行 分 析 , 可 以 看 出 , 原始 的 位 置 特征 标记 ( 仅 加 
上 位 置 特征 ) 所 得 到 的 分 词 效 果 (F 值 ) 最 好 , 加 上 其 他 
一 个 或 多 个 特征 之 后 , 均 有 下 降 趋势 。 

条 件 随机 场 的 最 大 优势 是 不 仅 可 以 融入 当前 字 
的 各 种 特征 知识 ， 而 且 可 以 结合 当前 字 左 右 特征 知识 
从 而 形成 最 有 效 的 特征 模板 43。 对 不 同 特征 模板 的 实 
验 结果 中 ， 移 除 当前 字 和 前 驱 第 一 个 字 以 及 当前 字 和 
后 驱 第 一 个 字 的 特征 行 时 分 词 结果 变化 明显 , F 值 降 
低 较 多 。 表 10 中 , 统计 了 语 料 中 词 长 分 布 情况 ,其 中 
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二 字 词 和 三 字 词 占 46.62% 的 比重 ,所 以 不 难看 出 当前 
字 和 前 驱 第 一 个 字 以 及 当前 字 和 后 驱 第 一 个 字 的 特征 
行 在 本 文 研究 的 语 料 自动 分 词 的 特征 模板 构建 中 是 不 
可 缺少 的 。 而 由 于 三 字 以 上 词 所 占 比 重 较 少 REA 
2.28%， 因 此 当 涉 及 到 前 驱 第 二 个 字 和 后 驱 第 二 个 字 ， 
以 及 前 驱 第 三 个 字 和 后 驱 第 三 个 字 的 特征 模板 的 变化 
时 , 则 对 分 词 结果 影响 不 大 。 


[2 
6Tag 
m Bub EE 92.8796 92.8896 92.16% 
m Juris] I Rr 92.76% 92.67% 92.04% 
利加 字音 特征 92.55% 92.35% 91.95% 
上 加 词 长 和 字音 特征 | 92.68% 92.0596 91.6596 


图 5 不 同 特征 组 合 所 得 上 值 变化 趋势 
表 10 食品 安全 突 发 事件 语 料 中 词 长 分 布 


词类 型 词 长 度 所 占 百 分 比 
单字 词 1 039 205 51.10% 
二 字 词 841 690 41.39% 
三 字 词 106 307 5.23% 
Jii] 28 220 1.39% 
五 字 词 8 893 0.44% 
六 字 词 2 626 0.13% 
其 他 6 598 0.32% 


本 文 针对 食品 安全 突 发 事件 语 料 的 自动 分 词 效果 
相 比 于 在 一 些 标准 测试 集 上 的 测试 效果 略 低 中 1。 分 析 
原因 主要 在 于 处 理 语 料 时 ， 首 先进 行 机 需 分 词 然 后 人 
TRIE, 在 后 期 对 错误 分 词 分 析 的 过 程 中 发 现 ， 人工 
校正 的 过 程 中 出 现 较 多 的 错误 ， 有 许多 机 需 分 词 错误 
未 予以 纠正 ,， 也 有 些 机 如 分 词 正确 而 后 期 人 工 校正 的 
过 程 中 修改 为 错误 的 情况 ,这 对 训练 学 习 阶段 和 模型 
测评 阶段 均 有 影响 。 


5 结 语 


将 条 件 随 机 场 模 型 应 用 到 食品 安全 突 发 事件 语 料 
的 自动 分 词 中 , 使 用 较为 成 熟 、 稳 定性 较 强 的 CRF++ 
工具 对 其 进行 逐一 实验 ,并且 考虑 到 文本 的 多 特征 性 
以 及 多 特征 相互 组 合 的 可 能 。 实 验 结果 表明 特征 标记 
的 选择 以 及 不 同 特征 组 合 的 选择 会 影响 到 分 词 效果 ， 
其 中 仅 加 上 位 置 特 征 的 特征 选择 4Tag 和 5Tag 的 分 词 
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效果 较 好 , 其 F 值 达 到 92.87% 和 92.88%, 而 加 上 其 他 
特征 之 后 值 均 有 下 降 。 同 时 ,通过 对 不 同 特征 模板 
分 词 效果 的 对 比分 析 , 选择 符合 所 选 特征 和 合适 本 文 
研究 对 象 的 特征 模板 。 


在 未 来 的 研究 中 , 将 在 文本 特征 上 做 进一步 挖掘 ， 


找到 能 将 上 下 文 的 语义 和 文本 结构 信息 融合 进去 的 特 


p^ 


， 期 望 在 自动 分 词 上 得 到 更 好 的 效果 。 


[1] 


[3] 


[4] 


[5] 


[7] 


李 洪 峰 . 食品 安全 社会 共 治 的 现实 困境 与 发 展 对 策 [J]. f 
品 与 机 械 , 2016, 32(4): 234-236. (Li Hongfeng. Analysis of 
Realistic Plights and Countermeasures in Social Co- 
governance on Food Safety in China[J]. Food & Machinery, 
2016, 32(4): 234-236.) 

EER. 公众 参与 食品 安全 治理 法 治 探析 四， 商业 研究 ， 


2012(4): 170-177. (Wang Huixia. Public Participation in Food 


Safety Management of the Rule of Law [J]. Commercial 
Research, 2012(4): 170-177.) 

AEM, X. 国内 中 文 自 动 分 词 技术 研究 综述 [ 丰 . 图 书 
情报 工作 ,2011, 55(2): 41-45. (Feng Guohe, Zheng Wei. 


Review of Chinese Automatic Word Segmentation [J]. 
Library and Information Service, 2011, 55(2): 41-45.) 

张 星 联 ， 唐 晓 纯 . 我 国 食品 安全 预警 数据 库 系统 的 建设 与 
实现 [J]. 食品 科技 , 2008, 33(12): 250-254. (Zhang Xinglian, 


Tang Xiaochun. Establishment on Database System of Food 
Safety Early-warning in China [J]. Food Science and 
Technology, 2008, 33(12): 250-254.) 

RAH, RE, WE, SE. 食品 监管 改革 的 关键 一 一 基于 互 
联网 的 动态 第 三 方 数据 库 []. 食品 工业 科技 ，2009(9): 
272-274. (Wu Yunhong, Zhu Liang, Chu Wei, et al. Key of 


i 


Food Supervision and Administration Reform-dynamic and 
Third Party Database Based on Internet [J]. Science and 
Technology of Food Industry, 2009 (9): 272-274.) 

余 清 , EUR. 加 工 食品 风险 数据 库 的 构建 思路 [可 . 价值 工 
f£, 2013(30): 174-175. (Yu Qing, Hong Yuan. Construction 
Idea for Risk Database of Processed Food [J]. Value 
Engineering, 2013(30): 174-175.) 

WL, KR, MER. 四 川 省 芯 州 市 三 界 镇 农民 专业 合 
作 社 调查 研究 [中 . 北 京 农 业 ，2014(3): 247-248. (Jia Kai, 
Peng Peihao, Ruan Weiling. Study on the Investigation of 


Farmer Cooperatives in Sanjie Town, Pengzhou City, Sichuan 
Province [J]. Beijing Agriculture, 2014(3): 247-248.) 

AAT, KE. 中 文 分 词 十 年 回顾 [四 中文 信 息 学 报 ， 
2007, 21(3): 8-19. (Huang Changning, Zhao Hai. Chinese 


[9] 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


ChinaXiv 合 作 期 刊 


总 第 2 期 2017 年 第 2 期 


Word Segmentation: A Decade Review [J]. Journal of 
Chinese Information Processing, 2007, 21(3): 8-19.) 

Zeng D, Wei D, Chau M, et al. Domain-specific Chinese 
Word Segmentation Using Suffix Tree and Mutual 
Information [J]. Information Systems Frontiers, 2011, 13(1): 
115-125. 

APEX T, FEX. 基于 条 件 随机 场 的 中 文 短 文本 分 
词 方法 []]. 清华 大 学 学 报 :自然 科学 版 , 2015, 55(8): 16-20. 
(Liu Zewen, Ding Dong, Li Chunwen. Chinese Word 


Segmentation Method for Short Chinese Text Based on 
Conditional Random Fields [J]. 
University:Science and Technology, 2015, 55(8): 16-20.) 

Lafferty J D, McCallum A, Pereira F. Conditional Random 


Journal of Tsinghua 


Fields: Probabilistic Models for Segmenting and Labeling 
Sequence Data [C]//Proceedings of the 18th International 
Conference on Machine Learning. 2001: 282-289. 

Pearl J. Bayes and Markov Networks:A Comparison of Two 
Graphical Representations of Probabilistic Knowledge [R]. 
Los Angeles, California, USA: University of California, 
1986. 

Wallach H M.Conditional Random Fields: An Introduction 
[EB/OL]. (2004-02-24). http://www.inference.phy.cam.ac.uk/ 
hmw26/papers/crf intro.pdf. 

CRF++: Yet Another CRF Toolkit [EB/OL]. [2014-08-04]. 
http://crfpp.sourceforge.net/. 

中 国 科学 院 计 算 技术 研究 所 . ICTCLAS 汉语 分 词 系统 
[CP/OL]. (2016-02-17). [2016-06-30]. http://ictclas.nlpir.org/. 


(Institute of Computing Technology of the Chinese Academy 
of Sciences. ICTCLAS Chinese Word Segmentation System 
[CP/OL]. (2016-02-17). [2016-06-30]. http://ictclas.nlpir. 
org/.) 

TER, REK, 张 玉 洁 . 面向 专利 文献 的 汉语 分 词 技术 
WRL 北京 大 学 学 报 : 自然 科学 版 ，2013，49(1): 
159-164 . (Yue Jinyuan, Xu Jin’an, Zhang Yujie. Chinese 


Acta 
2013, 


Word Segmentation for Patent Documents [J]. 


Scientiarum  Naturalium Universitatis Pekinensis, 
49(1): 159-164.) 

Chen L, Li M, Zhang J, et al. A Double-Layer Word 
Segmentation Combined with Local Ambiguity Word Grid 
and CRF [J]. 
Technology, 2013, 2(1): 1-8. 

黄 水 清 , 王 东 波 , 何 琳 . 以 《汉学 引得 丛刊 》 为 领域 词 表 的 
先秦 典籍 自动 分 词 探讨 []. 图 书 情报 工作 ，2015，59(11): 
127-133. (Huang Shuiqing, Wang Dongbo, He Lin. Exploring 


Transactions on Computer Science & 


of Word Segmentation for Fore-Qin Literature Based on the 


Data Analysis and Knowledge Discovery 


201711.01961v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


研究 文 


Domain Glossary of Sinological Index Series [J]. Library and 
Information Service, 2015, 59(11): 127-133.) 

[19] Zhao H, Huang C N, Li M, et al. An Improved Chinese Word 
Segmentation System with Conditional Random Field [C]// 
Proceedings of the 5th SIGHAN Workshop on Chinese 
Language Processing.2006: 162-165. 


EZ: 提出 研究 思路 , 设计 研究 方案 ; 

ERU, IKER, 朱丹 洗 : 采集 、 清 洗 和 分 析 数 据 ; 
: 进行 实验 , 起 草 论文 ; 

K, KR: 论文 最 终 版 本 修订 。 


E L1 Lu 
[s 


HH 
FH 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 [1-3] 由 作者 自 存 储 ，E-mail: db.wang@njau.edu.cn; 支 
撑 数 据 [4] 见 期 刊 网 络 版 http://www.infotech.ac.cn。 

[1] KE, EKW. data.txt. 食品 安全 突 发 事件 汉语 分 词 训练 和 
测试 数据 . 
[2] IKER, 王 东 波 . Template. 食品 安全 突 发 事件 汉语 分 词 特征 模板 . 
[3] IKER, 王 东 波 . result.txt. 食品 安全 突 发 事件 汉语 分 词 结果 . 
[4] 张 越 , 王 东 波 . wordseg 的 java 工程 文件 . 


收 稿 日 期 : 2016-09-22 
收 修改 稿 日 期 : 2016-10-31 


Segmenting Chinese Words from Food Safety Emergencies 
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(Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China) 
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Abstract: [Objective] This paper examines the automatic word segmentation models, which plays key roles to build 


databases for food safety administration. We used the statistical learning method based on conditional random field to 


segment words from food safety emergencies. [Methods] First, we analyzed the length of target words and conducted 


multiple experiments on the selection and template of word features for the automatic segmentation methods. Second, 


we identified the impacts of different features and templates to the segmentation results. [Results] We found 


that selecting more features might not yield better results due to the characteristics interference. About 46.62% of the 


phrases from the corpus of food safety emergencies only contained two or three words. The first words before and after 


the current word of the features template pose more effects to the results. [Conclusions] We have identified the optimal 


feature and template for the automatic segmentation of words and the F score reaches 92.8896 with the 5Tag features. 


Keywords: Chinese Word Segmentation Food Safety Conditional Random Field Feature Template 


Feature Selection 
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